查看原文
其他

【直播】我的基因组(六):变异位点注释数据库的准备

2016-11-11 Jimmy 生信技能树

 大家好,又是一周不见。

这次见面,已然是一个悲伤而又狂欢的日子,这个双十一,小编从一只单身汪已经变成了断手单身汪,累觉不爱。但是,扶朕起来,朕还能学。


Jimmy的测序数据终于出来了,虽然还没寄到Jimmy的手里。不过我们离正式分析不远了,你们觉得呢?在正式分析之前,我们还有几个准备工作,小编把Jimmy上次介绍的软件进行了下载和准备,不知道大家一起了么?这一次我们准备一下变异数据库,这对于我们在找有意义的变异位点、疾病预测等方面有着重要作用呢!我们一起来看看Jimmy告诉我们该怎样做吧!


说正事的分割线





通常一个人的全基因组测序数据可以挖掘到四百万个SNVs(跟参考基因组不一样的单碱基位点),还有五十万的indels(insertions or deletions),但是得到的数据通常是以vcf文件格式给出的(自行搜索什么是vcf格式),比如下面:





很明显,正常人是看不懂这些变异位点有啥子一样的,只知道第20条染色体的1230237坐标上面本来是一个T碱基的,但是突变成了G,那么我们必然还想知道,这个位点是在某个基因上面吗?如果是,在基因的外显子还是内含子?它的突变有没有改变该基因的功能呢?有没有影响它的转录和翻译呢?还有世界上有没有其他正常人也是这个位点变异呢?如果有,是哪些人种呢?有没有癌症病人也发现了这个变异呢?如果有,是什么癌症呢?所以我们必须下载一系列的变异位点注释数据库,来全方位的解释我们自己找到那四百万个SNVs和五十万的indels。下面我们一起进行数据库准备。



TCGA数据库是最大的癌症基因信息的数据库。TCGA中的somatic mutation大全非常重要,里面搜集的是TCGA计划里面各个癌症里面总结的somatic mutation,如果我们手头的样本的变异文件里面跟它有交集,那这就有些危险了。用下面的代码下载!


wget https://gdc-docs.nci.nih.gov/Data/Release_Notes/Manifests/GDC_open_MAFs_manifest.txt

for i in `cut -f 2  GDC_open_MAFs_manifest.txt`

do

echo $i

adress=`echo $i |cut -d'.' -f 4 `

filename=`echo $i |cut -f 2 |cut -d'.' -f 1-3,5-7 `

echo $adress $filename

wget -O "$filename" "https://gdc-api.nci.nih.gov/data/$adress"

done


其中,还有一些数据库是需要注册的,就没办法给出下载地址了,比如COSMIC,这个同样是关于癌症的数据库,我们也不希望正常人里面出现这些突变!附图给大家看看注册的界面。



如果是正常人数据库,那么我们就需要把找到的正常人的变异位点在它里面出现的过滤掉,不研究了,因为正常人有这个变异也正常(当然也并不不绝对),比如说千人基因组计划。


千人基因组计划里面涉及到了5个大人种,共25个小人种的基因型数据,把自己的基因型文件跟他们相比,可以得到某种程度的比较粗糙的祖缘分析结果,而且我们还下载了好几个国家级的基因组计划,都是针对特定人种的。

下载千人基因组数据库。

mkdir -p ~/annotation/variation/human/1000genomes

cd ~/annotation/variation/human/1000genomes

## ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/

nohup wget  -c -r -nd -np -k -L -p ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502 &



还有一些其常常用数据库,我就不一一介绍了(#后是对应数据库的说明,大家可自行查看)

mkdir -p ~/annotation/variation/human/ExAC

cd ~/annotation/variation/human/ExAC

## http://exac.broadinstitute.org/

## ftp://ftp.broadinstitute.org/pub/ExAC_release/current

wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/ExAC.r0.3.1.sites.vep.vcf.gz.tbi

nohup wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/ExAC.r0.3.1.sites.vep.vcf.gz &

wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/cnv/exac-final-cnv.gene.scores071316

wget

mkdir -p ~/annotation/variation/human/dbSNP
cd ~/annotation/variation/human/dbSNP

## https://www.ncbi.nlm.nih.gov/projects/SNP/

## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh38p2/

## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/

nohup wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz &

wget

mkdir -p ~/annotation/variation/human/ESP6500

cd ~/annotation/variation/human/ESP6500

# http://evs.gs.washington.edu/EVS/

nohup wget http://evs.gs.washington.edu/evs_bulk_data/ESP6500SI-V2-SSA137.GRCh38-liftover.snps_indels.vcf.tar.gz &

mkdir -p ~/annotation/variation/human/UK10K

cd ~/annotation/variation/human/UK10K

# http://www.uk10k.org/

nohup wget ftp://ngs.sanger.ac.uk/production/uk10k/UK10K_COHORT/REL-2012-06-02/UK10K_COHORT.20160215.sites.vcf.gz &

mkdir -p ~/annotation/variation/human/gonl

cd ~/annotation/variation/human/gonl

## http://www.nlgenome.nl/search/

## https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release5/

nohup wget  -c -r -nd -np -k -L -p https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release5  &

## 1 million single nucleotide polymorphisms (SNPs) for DNA samples from each of the three ethnic groups in Singapore – Chinese, Malays and Indians.

## The Affymetrix Genome-Wide Human SNP Array 6.0   && The Illumina Human1M single BeadChip

## http://www.statgen.nus.edu.sg/~SGVP/

## http://www.statgen.nus.edu.sg/~SGVP/singhap/files-website/samples-information.txt

# http://www.statgen.nus.edu.sg/~SGVP/singhap/files-website/genotypes/2009-01-30/QC/

## Singapore Sequencing Malay Project (SSMP)

mkdir -p ~/annotation/variation/human/SSMP

cd ~/annotation/variation/human/SSMP

## http://www.statgen.nus.edu.sg/~SSMP/

## http://www.statgen.nus.edu.sg/~SSMP/download/vcf/2012_05

## Singapore Sequencing Indian Project (SSIP)

mkdir -p ~/annotation/variation/human/SSIP

cd ~/annotation/variation/human/SSIP

# http://www.statgen.nus.edu.sg/~SSIP/

## http://www.statgen.nus.edu.sg/~SSIP/download/vcf/dataFreeze_Feb2013





文:Jimmy、吃瓜群众

图文编辑:吃瓜群众







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存